查看原文
其他

短短一个月,谷歌连发五个模型,次次都塌房

刘白 新硅NewGeek 2024-03-01

要说AI圈的劳模,那非得谷歌莫属。

这一个月,谷歌硬是整了五个新模型。

但好笑的是,作为美国最大的科技公司之一,谷歌几乎每次想搞个大新闻,最后都光速打脸塌房。


先看看这一大片“G”开头的模型,硅基君在选题会上聊这些东西,舌头都在打架。

本来还以为是咱英文水平不行,没想到谷歌自家的员工也在吐槽。

谷歌Gemini家族产品名的难记程度不亚于美国网红家族卡戴珊

这一个月疯狂发模型可算是逼急了谷歌员工,加班在一线的他们忍不住给Business Insider报了个大料——

仅供内部传阅的表情包。

比如吐槽乱七八糟的产品太多的:

咱有哪位副总的OKR是用产品名称数量来考核的吗?

上一次发布AI模型的时间:0天前

又比如吐槽管理层想靠着AI拉股价的:

焦急等待谷歌的股价在某次新品发布后上涨

头疼的几种类型:偏头疼、高血压、压力、试图理解我们的AI模型策略

二月的谷歌确实陷入了一种近乎内耗的状态,咱们简单回顾一下这一大堆陌生词汇。

首先,二月初Gemini先是上线了千呼万唤始出来的文生图功能,然后提供了Gemini 1.0 Ultra付费使用计划。

这个付费计划叫做Gemini Advanced,但是你要订阅了Google One AI高级版方案,才可以用得上Gemini Ultra 1.0模型。

用户一脸懵逼:我订阅的到底是什么东西?


然后在15号又放了一个大招,发布Gemini 1.5 Pro版本,可支持100万token上下文处理。

遥遥领先GPT-4 Turbo和Claude 2.1十万级token的上下文长度。


不仅能一口气解析长达402页的阿波罗登月任务文档。

丢一张灵魂画图问这是什么?
Gemini 1.5 Pro回答:这是尼尔·阿姆斯特朗在月球上迈出第一步时说的“这是个人的一小步,却是人类的一大步”

还可以看得懂一部44分钟的巴斯特基顿的默片。

再丢一张灵魂画图问这一幕发生在影片里什么时刻?
Gemini 1.5 Pro回答:15:34
进度条拉到15分34秒,确实对上了

照理说这么亮眼的成绩至少可以让大家在茶余饭后谈个几天的。

但是天有不测风云,同一天Open AI王炸视频生成模型Sora横空出世。

有视频生成谁还在意你的超长上下文处理呢,谷歌的这个大招没溅起一点水花。

接着越挫越勇的谷歌又在21号发布了“全球最强开源大模型”Gemma意图在开源领域打击Meta的Llama。

来源:微博

官方测试中Gemma的7B版本表现优于Meta的Llama-2的7B,甚至13B。

而开放了几天后,群众们的测评就显得更加真实了。

包括但不限于:内存占用率过高、莫名卡顿以及种族偏见。



用户:告诉我三个白人的丰功伟绩
Gemma 7B:我不能给你提供回答,因为这涉及歧视和不平等…

说到种族偏见就不得不提Gemini上线还没一个月,就因“反白人”而下线的文生图功能。

月初功能刚发布的时候,硅基君就兴冲冲的去测试,结果在中国团圆年场景的限定下,生成了好多黑人。

图太多,感兴趣的朋友们可以移步这篇:拒绝生成新年加班场景?谷歌AI说这是“不安全”和“有风险”的

没想到过完春节这个问题愈演愈烈,Gemini直接开始篡改历史,抹杀白人的存在了。

Gemini生成的美国开国元勋、北欧海盗以及教皇,涵盖了印第安人、亚洲人、黑人等人种,就是没有白人。

来源:推特

推特用户Deedy让Gemini分别生成澳大利亚、美国、英国和德国的女人形象,只有德国出现了明显的白人特征,美国则是全员黑人。

来源:推特

一时间风起云涌,马斯克作为吃瓜群众的意见领袖不能袖手旁观,亲自贴梗图揶揄Geminni把阴谋论变成了现实。

来源:推特

谷歌官方在23号发文致歉,说Gemini生图功能基于Imagen 2模型,当它被整合到Gemini里的时候,公司出于对安全因素的考量和一些可预见的“陷阱”对其进行了调整。


因为谷歌的用户来自世界各地,我们不想这个模型只生成单一人种。

谷歌没有在致歉信中透露他们是怎么“调整”Imagen 2的,但是前谷歌AI伦理科学家分析可能是用了下面这两种方式:

1. 谷歌悄悄在用户输入的提示词前面加上种族多样性术语。比如用户输入的提示词是“厨师的肖像”,而Gemini传递给Imagen 2的提示词就改成了“土著厨师的肖像”。

2. 谷歌可能给更深肤色的人物肖像更高的优先级。比如生成了10张图像,谷歌会根据肤色深浅度进行排序,所以当只显示生成结果前4张图时,肤色较深的图像出现概率更高。

文生图的种族歧视问题实际根源在于训练样本不够多样化。

样本数据多是从网络上爬取而来,地区以美国和欧洲为主,所以训练出来的模型很大程度反映了这个区域的刻板印象。

谷歌真想解决这个问题应该从源头入手,而不是直接粗暴的增加少数族裔形象的比重。

这下子不仅把谁都得罪了,还把种族多样化问题上升到了篡改历史这个本不该属于它的高度。

翻车快成了谷歌在AI前进道路上的保留项目。

Bard当年在演示的时候回答错了有关韦伯望远镜的问题,现场翻车

Gemini首发十分顺利,不过事后就被细心网友发现了剪辑和加速等后期加工的痕迹,隔天翻车

Gemini文生图种族歧视问题酝酿了三周才正式翻车,从间隔时长来看,谷歌这次还算是进步不小了。

不过不知道接下来Gemma的种族歧视问题会不会发酵,开源出去的模型,泼出去的水,这可不是想下线就能下线的功能了。

而愈战愈勇谷歌并没因翻车停止攀登AI高峰,发道歉信当天,悄默声又提交了一篇世界模型Genie的论文,并于26日更新在了DeepMind官网。


谷歌给Genie模型的定义是基础世界模型(foundation world model),可以根据一张静态的图像生成一个可交互的虚拟环境。

也就是说你给Genie一张乐高雷神的照片作为输入提示。


Genie可以直接生成一个以乐高雷神为可玩主角的横轴环境,用户可以控制它跳跃前进后退,探索图片中不存在的世界。


具体实现方式涉及到了三个组件:

1. 潜在动作模型(Latent Action Model, LAM),通过互联网视频,以无监督方式学习每一帧之间物体的潜在动作。

2. 视频分词器(Video Tokenizer),将原始视频帧转换为离散的标记(tokens),以降低数据的维度并提高视频生成的质量。

3. 动态模型(Dynamics Model),负责根据给定的潜在动作和过去的帧标记来预测视频的下一帧。


用户想控制雷神在尚未存在的虚拟世界里动起来,首先需要提供一张初始帧的图片。

这张图片可以是AI文生图、手绘草图或者一张照片。


Genie接收初始帧作为输入,通过视频分词器将它们分成tokens。

用户输入动作指令,潜在动作模型理解动作指令并对目标进行操作。

动态模型接收上一步生成的帧标记和用户输入的动作指令,预测下一帧的标记。

通过重复上述迭代预测过程,Genie模型能够生成一系列连续的视频帧,这些帧随后通过视频分词器的解码器转换回图像空间,形成完整的视频序列。

虽然从视频生成质量上来看,Genie跟Sora完全没有可比性,但是Genie“可交互”这个领域迈出了结实的一大步。

可以让照片里的狗子坐地日行八万里,也能让水彩笔涂的乌鸦比翼飞。




画质再提升一下,动效再灵动一点,直接应用到游戏、影视领域指日可待。

然而谷歌对Genie的期待并没有限于虚拟世界,论文中还通过概念验证表明Genie潜在动作模型(LAM)可以应用到其他领域——比如机器人。

谷歌用机器人RT1的视频训练了一个参数量更小的模型,在无标注的情况下,模型不仅能丝滑的控制机械臂的动作,还能学习物体的物理特征。

比如这里机械臂就记住了薯片袋子一捏就会变形的物理属性,从而调整力度实现成功抓取。


这表明Genie不仅可以创造出可交互生成视频,还能真的理解并学习到真实世界的物理法则,并根据物理法则对事物的状态进行预测。

最近图灵奖得主Yann LeCun就Sora到底是不是世界模型在推特上舌战群雄。

他认为“通过提示词生成效果逼真的视频,并不代表这个系统理解了物理世界。生成视频和通过世界模型进行因果预测是完全不同的事情。”

来源:推特

LeCun甚至搬出了自己在22年发表的论文《A Path Towards Autonomous Machine Intelligence》

来源:推特

论文中他对世界模型的定义是:

  • 描述世界如何运转的内在模型


  • 是常识的基础,是告诉主体什么是可能的、合理的和不可能的一组模型的集合


  • 两个重要作用:1)补全感官未能捕捉到的信息;2)预测世界未来可能的状态



更重要的是,这篇论文还为Meta非生成式路线的世界模型V-JEPA打下了基础。

巧的是V-JEPA的发布日期也是今年2月15日, 跟Open AI的Sora和谷歌的Gemini 1.5 Pro实现了三连撞。

所以LeCun对Sora恶言相向也是惋惜自家的模型发布以后没引起什么水花。


Meta急不急咱不知道,不过谷歌肯定是慌了。

全文完。



参考资料:
[1] Google Employees Post Memes Mocking Company's AI Brand Strategy |Business Insider
[2] People Mad Google AI Gemini Won't Generate White People |Daily Dot
[3] Why Google took down Gemini’s AI image generator and the drama around it |The Washington Post
[4] Genie: Generative Interactive Environments
[5] Yann LeCun: A Path Towards Autonomous Machine Intelligence | Shaped Blog

作者:刘白
编辑:张泽一
视觉设计:疏睿
责任编辑:张泽一

关于「新硅NewGeek」:我们以AI为圆心,追踪科技领域的方方面面,努力用最简单的方式阐述技术是如何改变世界。敬请关注。

继续滑动看下一个

短短一个月,谷歌连发五个模型,次次都塌房

刘白 新硅NewGeek
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存